Equivalência entre a Área sob a Curva Kolmogorov-Smirnov e o Índice de Gini na Avaliação de Desempenho de Decisões Binárias

نویسندگان

  • Paulo J. L. Adeodato
  • Sílvio B. Melo
چکیده

This paper proposes and proves the important equivalence between the Gini index and the area under the Kolmogorov-Smirnov (KS) distribution curve. The proof’s rationale is similar to that used in the proof of equivalence between AUC_ROC and AUC_KS. But different from that, this one uses a transformation that preserves the 1-to-1 correspondence between the ideal classifier on the KS and Lorenz curve domains. As metrics, this paper proves that the Gini index ratio to that of the ideal classifier is equivalent to the area under the KS curve ratio to that of its ideal classifier. That is Gini_Index_Ratio = AUC_KS_Ratio. This complements the proven equivalence between KS and ROC area metrics extending it to the Gini index. Resumo. Este artigo propõe e prova a importante equivalência entre o índice de Gini e a área sob a curva da distribuição Kolmogorov-Smirnov (KS). A lógica da prova é semelhante à utilizada na prova de equivalência entre a AUC_ROC e a AUC_KS. Mas, diferente daquela, esta usa uma transformação que preserva a relação 1-para-1 entre o classificador ideal nos domínios das curvas KS e de Lorenz. Como métricas, este artigo prova que a razão do índice de Gini pelo do classificador ideal é equivalente à razão da área sob a KS pela área do classificador ideal. Isso é Gini_Index_Ratio = AUC_KS_Ratio. Isso complementa a equivalência entre as métricas de área KS e ROC, estendendo-a para o índice de Gini.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Sensibilidade e especificidade do índice de conicidade como discriminador do risco coronariano de adultos em Salvador, Brasil* Sensitivity and specificity of the conicity index as a coronary risk predictor among adults in Salvador, Brazil

Objetivo: No início da década de 90, foi proposto o índice de conicidade para avaliação da distribuição da gordura corporal, com base nas medidas de peso, estatura e circunferência da cintura. Este estudo teve como objetivo selecionar através da sensibilidade e especificidade os melhores pontos de corte para o índice de conicidade como discriminador de risco coronariano elevado. Métodos: Estudo...

متن کامل

Dead space to tidal volume ratio (VD/VT) to explain extubation failure in children: the limitations of current evidence.

Riou et al.1 apresentam um artigo que descreve o valor da razão entre espaço morto e volume corrente (VD/VT) para avaliar a probabilidade de sucesso na extubação de crianças em ventilação mecânica hospitalizadas em uma unidade de tratamento intensivo (UTI). Os métodos do estudo reproduzem os de dois trabalhos já publicados sobre o assunto envolvendo crianças em estado crítico2,3. Assim como no ...

متن کامل

Estudo Comparativo entre Proposicionalização e Mineração de Dados Multidimensional sobre um Banco de Dados Relacional

Propositionalization and multidimensional data mining are the two main approaches applied in a relational database during the pre-processing stage of a knowledge discovery project for relational classi cation. Much has been discussed whether there are di erences between them on the nal performance of the intelligent system, however, few studies have been performed with public data of real probl...

متن کامل

Clinical-Functional Vulnerability Index-20 (IVCF-20): rapid recognition of frail older adults

OBJECTIVE To evaluate the adequacy of the Clinical-Functional Vulnerability Index-20, a rapid triage instrument to test vulnerability in Brazilian older adults, for the use in primary health care. METHODS The study included convenience sample of 397 patients aged older than or equal to 60 years attended at Centro de Referência para o Idoso (Reference Center for Older Adults) and of 52 older a...

متن کامل

Interpretação De Dados De Testes De Vigor Em Sementes De Milho

RESUMO O objetivo desta pesquisa foi estudar, em lotes de sementes de milho, a possibilidade de estabelecer relações entre os dados de vigor obtidos em laboratório com os verificados no campo. Para tanto, foram utilizados 28 lotes (tratamentos) de sementes de milho (cv. Al Bandeirante) padronizadas em relação ao grau de umidade, à largura, ao comprimento e à germinação. Posteriormente, foram co...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:

دوره   شماره 

صفحات  -

تاریخ انتشار 2016